智能论文笔记

Convolutional Neural Networks with A Topographic Representation Module for EEG-Based Brain-Computer Interfaces

Xinbin Liang , Yaru Liu , Yang Yu , Kaixuan Liu , Yadong Liu , Zongtan Zhou

分类：机器学习

2022-08-23

目的：卷积神经网络（CNN）在脑部计算机界面（BCI）领域表现出巨大的潜力，因为它们能够直接处理无人工特征提取而直接处理原始脑电图（EEG）。原始脑电图通常表示为二维（2-D）矩阵，由通道和时间点组成，忽略了脑电图的空间拓扑信息。我们的目标是使带有原始脑电图信号的CNN作为输入具有学习EEG空间拓扑特征的能力，并改善其分类性能，同时实质上保持其原始结构。方法：我们提出了一个EEG地形表示模块（TRM）。该模块由（1）从原始脑电图信号到3-D地形图的映射块和（2）从地形图到与输入相同大小的输出的卷积块组成。我们将TRM嵌入了3个广泛使用的CNN中，并在2种不同类型的公开数据集中测试了它们。结果：结果表明，使用TRM后，两个数据集都在两个数据集上提高了3个CNN的分类精度。在模拟驾驶数据集（EBDSDD）和2.83 \％，2.17 \％和2.17 \％\％和2.17 \％和2.00 \％的紧急制动器上，具有TRM的DeepConvnet，Eegnet和ShandowConvnet的平均分类精度提高了4.70 \％，1.29 \％和0.91 \％高γ数据集（HGD）。意义：通过使用TRM来挖掘脑电图的空间拓扑特征，我们在2个数据集上提高了3个CNN的分类性能。另外，由于TRM的输出的大小与输入相同，因此任何具有RAW EEG信号的CNN作为输入可以使用此模块而无需更改原始结构。

translated by 谷歌翻译

Easy and Efficient Transformer : Scalable Inference Solution For large NLP model

Gongzheng Li , Yadong Xi , Jingzhen Ding , Duan Wang , Bai Liu , Changjie Fan , Xiaoxi Mao , Zeng Zhao

分类：自然语言处理

2021-04-26

最近，已被证明基于大规模的变换器的模型在许多域中的各种任务中有效。尽管如此，将它们投入生产非常昂贵，需要全面的优化技术来降低推理成本。本文介绍了一系列变压器推理优化技术，既可算法等级和硬件级别。这些技术包括预填充解码机制，其改善了文本生成的令牌并行性，并且设计用于非常长的输入长度和大的隐藏尺寸设计的高度优化的内核。在此基础上，我们提出了一种变压器推理加速库 - 简单高效的变压器（EET），对现有库具有显着的性能改进。与更快的变压器V4.0在A100上的GPT-2层的实现相比，EET实现了1.5-4.5倍的最先进的加速，随着不同的上下文长度而变化。 EET可在https://github.com/netease-fuxi/eet中获得。 Demo视频可在https://youtu.be/22upcngcerg获得。

translated by 谷歌翻译

Exploring Stroke-Level Modifications for Scene Text Editing

Yadong Qu , Qingfeng Tan , Hongtao Xie , Jianjun Xu , Yuxin Wang , Yongdong Zhang

分类：计算机视觉

2022-12-05

Scene text editing (STE) aims to replace text with the desired one while preserving background and styles of the original text. However, due to the complicated background textures and various text styles, existing methods fall short in generating clear and legible edited text images. In this study, we attribute the poor editing performance to two problems: 1) Implicit decoupling structure. Previous methods of editing the whole image have to learn different translation rules of background and text regions simultaneously. 2) Domain gap. Due to the lack of edited real scene text images, the network can only be well trained on synthetic pairs and performs poorly on real-world images. To handle the above problems, we propose a novel network by MOdifying Scene Text image at strokE Level (MOSTEL). Firstly, we generate stroke guidance maps to explicitly indicate regions to be edited. Different from the implicit one by directly modifying all the pixels at image level, such explicit instructions filter out the distractions from background and guide the network to focus on editing rules of text regions. Secondly, we propose a Semi-supervised Hybrid Learning to train the network with both labeled synthetic images and unpaired real scene text images. Thus, the STE model is adapted to real-world datasets distributions. Moreover, two new datasets (Tamper-Syn2k and Tamper-Scene) are proposed to fill the blank of public evaluation datasets. Extensive experiments demonstrate that our MOSTEL outperforms previous methods both qualitatively and quantitatively. Datasets and code will be available at https://github.com/qqqyd/MOSTEL.

translated by 谷歌翻译

Image Completion with Heterogeneously Filtered Spectral Hints

Xingqian Xu , Shant Navasardyan , Vahram Tadevosyan , Andranik Sargsyan , Yadong Mu , Humphrey Shi

分类：计算机视觉

2022-11-07

Image completion with large-scale free-form missing regions is one of the most challenging tasks for the computer vision community. While researchers pursue better solutions, drawbacks such as pattern unawareness, blurry textures, and structure distortion remain noticeable, and thus leave space for improvement. To overcome these challenges, we propose a new StyleGAN-based image completion network, Spectral Hint GAN (SH-GAN), inside which a carefully designed spectral processing module, Spectral Hint Unit, is introduced. We also propose two novel 2D spectral processing strategies, Heterogeneous Filtering and Gaussian Split that well-fit modern deep learning models and may further be extended to other tasks. From our inclusive experiments, we demonstrate that our model can reach FID scores of 3.4134 and 7.0277 on the benchmark datasets FFHQ and Places2, and therefore outperforms prior works and reaches a new state-of-the-art. We also prove the effectiveness of our design via ablation studies, from which one may notice that the aforementioned challenges, i.e. pattern unawareness, blurry textures, and structure distortion, can be noticeably resolved. Our code will be open-sourced at: https://github.com/SHI-Labs/SH-GAN.

translated by 谷歌翻译

Strong Instance Segmentation Pipeline for MMSports Challenge

Bo Yan , Fengliang Qi , Zhuang Li , Yadong Li , Hongbin Wang

分类：计算机视觉

2022-09-28

ACM MMSPORTS2022 DEEPSPORTRADAR实例细分挑战的目标是解决个人人类的细分，包括球员，教练和裁判在篮球场上。这项挑战的主要特征是，玩家之间存在很高的阻塞，数据量也非常有限。为了解决这些问题，我们设计了一个强大的实例分割管道。首先，我们对此任务采用了适当的数据增强策略，主要包括光度失真变换和复制式策略，该策略可以生成更多具有更广泛分布的图像实例。其次，我们采用了强大的分割模型，基于SWIN基础的CBNETV2骨架上的基于混合任务级联的检测器，并将Maskiou Head添加到HTCMASKHEAD，可以简单有效地改善实例细分的性能。最后，采用了SWA培训策略来进一步提高性能。实验结果表明，所提出的管道可以在DeepSportradar挑战中取得竞争成果，而挑战集则以0.768AP@0.50：0.95。源代码可在https://github.com/yjingyu/instanc_segentation_pro中获得。

translated by 谷歌翻译

Embracing Consistency: A One-Stage Approach for Spatio-Temporal Video Grounding

Yang Jin , Yongzhi Li , Zehuan Yuan , Yadong Mu

分类：计算机视觉

2022-09-27

时空视频接地（STVG）的重点是检索由自由形式的文本表达式描绘的特定物体的时空管。现有方法主要将这一复杂的任务视为平行框架的问题，因此遭受了两种类型的不一致缺点：特征对齐不一致和预测不一致。在本文中，我们提出了一个端到端的一阶段框架，称为时空的一致性变压器（STCAT），以减轻这些问题。特别是，我们引入了一个新颖的多模式模板，作为解决此任务的全球目标，该目标明确限制了接地区域并将所有视频框架之间的预测联系起来。此外，为了在足够的视频文本感知下生成上述模板，提出了一个编码器架构来进行有效的全局上下文建模。由于这些关键设计，STCAT享有更一致的跨模式特征对齐和管预测，而无需依赖任何预训练的对象探测器。广泛的实验表明，我们的方法在两个具有挑战性的视频基准（VIDSTG和HC-STVG）上胜过先前的最先进的，这说明了拟议框架的优越性，以更好地理解视觉与自然语言之间的关联。代码可在\ url {https://github.com/jy0205/stcat}上公开获得。

translated by 谷歌翻译

Style Variable and Irrelevant Learning for Generalizable Person Re-identification

Haobo Chen , Chuyang Zhao , Kai Tu , Junru Chen , Yadong Li , Boxun Li

分类：计算机视觉

2022-09-12

最近，由于受监督人员重新识别（REID）的表现不佳，域名概括（DG）人REID引起了很多关注，旨在学习一个不敏感的模型，并可以抵抗域的影响偏见。在本文中，我们首先通过实验验证样式因素是域偏差的重要组成部分。基于这个结论，我们提出了一种样式变量且无关紧要的学习方法（SVIL）方法，以消除样式因素对模型的影响。具体来说，我们在SVIL中设计了样式的抖动模块（SJM）。 SJM模块可以丰富特定源域的样式多样性，并减少各种源域的样式差异。这导致该模型重点关注与身份相关的信息，并对样式变化不敏感。此外，我们将SJM模块与元学习算法有机结合，从而最大程度地提高了好处并进一步提高模型的概括能力。请注意，我们的SJM模块是插件和推理，无需成本。广泛的实验证实了我们的SVIL的有效性，而我们的方法的表现优于DG-REID基准测试的最先进方法。

translated by 谷歌翻译

A Safe Semi-supervised Graph Convolution Network

Zhi Yang , Yadong Yan , Haitao Gan , Jing Zhao , Zhiwei Ye

分类：机器学习 | 计算机视觉

2022-07-05

在半监督的学习领域中，作为GNN的变体模型，图形卷积网络（GCN）通过将卷积引入GNN来实现非欧盟数据的有希望的结果。但是，GCN及其变体模型无法安全地使用风险未标记数据的信息，这将降低半监督学习的性能。因此，我们提出了一个安全的GCN框架（SAFE-GCN），以提高学习绩效。在Safe-GCN中，我们设计了一个迭代过程来标记未标记的数据。在每次迭代中，学会了GCN及其监督版本（S-GCN），以高信任地找到未标记的数据。然后将高信心的未标记数据及其伪标签添加到标签集中。最后，两者都添加了未标记的数据和标记的数据来训练S-GCN，该S-GCN可以安全地探索风险未标记的数据，并可以安全使用大量未标记的数据。在三个众所周知的引用网络数据集上评估了安全性GCN的性能，并且获得的结果证明了该框架对几种基于图的半监督学习方法的有效性。

translated by 谷歌翻译

Symmetric Network with Spatial Relationship Modeling for Natural Language-based Vehicle Retrieval

Chuyang Zhao , Haobo Chen , Wenyuan Zhang , Junru Chen , Sipeng Zhang , Yadong Li , Boxun Li

分类：计算机视觉

2022-06-22

基于自然语言（NL）的车辆检索旨在搜索给定文本描述的特定车辆。不同于基于图像的车辆检索，基于NL的车辆检索不仅需要考虑车辆外观，还需要考虑周围环境和时间关系。在本文中，我们提出了一个具有空间关系建模（SSM）方法的对称网络，用于基于NL的车辆检索。具体而言，我们设计了一个对称网络，以学习文本描述和车辆图像之间的统一跨模式表示，其中保留了车辆外观细节和车辆轨迹全球信息。此外，为了更好地利用位置信息，我们提出了一种空间关系建模方法，以考虑周围环境和相互关系的考虑。定性和定量实验验证了所提出的方法的有效性。我们在第六届AI城市挑战赛的测试集上获得了43.92％的MRR准确性，该挑战是基于自然语言的车辆检索轨道，在公共排行榜上所有有效的提交中排名第一。该代码可从https://github.com/hbchen121/aicity2022_track2_ssm获得。

translated by 谷歌翻译

Learning Sample Importance for Cross-Scenario Video Temporal Grounding

Peijun Bao , Yadong Mu

分类：计算机视觉

2022-01-08

时间接地的任务旨在在未经监控的视频中定位视频时刻，具有给定的句子查询。本文首次调查了某些特定于时间接地任务的肤浅偏差，并提出了一种新型靶向解决方案。最令人惊讶的是，我们观察到现有的时间地面模型在视觉模态中严重依赖于某些偏差（例如，高偏好或频繁概念或某些时间间隔的高偏好）。当在跨场景测试设置中概括模型时，这导致较差的性能。为此，我们提出了一种新颖的方法，称为Debiaded Temporal语言定位器（DebiaStll），以防止模型天鹅绒记忆偏差并强制基于真正的模态关系将查询句子接地。 Debias-TLL同时列举两种型号。通过我们的设计，当判断样品时，这两个模型的预测的大大差异显示出更高的偏置样品的概率。利用信息性差异，我们设计了一种用于缓解数据偏差的数据重称之度方案。我们评估跨场景时间接地中提出的模型，其中火车/测试数据是异构的。实验表明，与最先进的竞争对手相比，所提出的方法的大幅度优势。

translated by 谷歌翻译